KI-gestützte Texterkennung (OCR/HTR) bei ‚kleinen‘ Sprachen

KI-gestützte Texterkennung (OCR/HTR) bei "kleinen" Sprachen

Veranstalter
Dr. Martina Niedhammer, Collegium Carolinum. Forschungsinstitut für die Geschichte Tschechiens und der Slowakei, München, in Kooperation mit Prof. Dr. Jana Osterkamp, Universität Augsburg
Veranstaltungsort
München
Gefördert durch
Deutsche Forschungsgemeinschaft (DFG); Universität Augsburg
PLZ
81669
Ort
München
Land
Deutschland
Findet statt
In Präsenz
Vom - Bis
13.09.2023 - 14.09.2023
Deadline
20.06.2023
Von
Martina Niedhammer, Collegium Carolinum. Forschungsinstitut für die Geschichte Tschechiens und der Slowakei (München)

KI-gestützte Texterkennung (OCR/HTR) bei ‚kleinen‘ Sprachen

Der internationale Workshop im Rahmen des DFG-Projekts "Die Entdeckung der Muttersprache" beschäftigt sich, ausgehend vom Konzept der "kleinen" Sprache, mit KI-basierter Texterkennung im Bereich von Handschrift und Druck. Im Mittelpunkt stehen dabei Herausforderungen, die sich bei der Quellenarbeit mit Sprachen des östlichen Europas, die bis ins 20. Jahrhundert hinein nicht standardisiert waren, ergeben. Vergleichende Beispiele aus anderen Regionen sind willkommen.

[CFP:] AI-based Text Recognition (OCR/HTR) for "Minor" Languages

By referring to the concept of "minor" languages, the international workshop will deal with AI-based text recognition in the field of handwriting and print. The focus will be on challenges that arise when conducting source work with Central and Eastern European languages which were not standardized until the 20th century. Comparative examples from other regions are welcome.

KI-gestützte Texterkennung (OCR/HTR) bei "kleinen" Sprachen

Das Beispiel mehrsprachiger Gesellschaften in Indien und den Amerikas führte in der Soziolinguistik der 1960er Jahre zur Herausbildung des Konzepts der „kleinen“ Sprache (minor language). Ein mehrfach modifiziertes Set an Kriterien, darunter die Anzahl der Sprecher:innen, die Zulassung als Amtssprache sowie die Verwendung als Unterrichtssprache oder Typifikationen als Vernakularsprache, standardisierte Sprache, „klassische“ Sprache, Pidginsprache oder Kreolsprache sollten systematische Vergleiche zwischen Sprechenden verschiedener Sprachen erleichtern. Aus der Perspektive der Geschichtswissenschaft lässt sich der Begriff der „kleinen“ Sprache mit Blick auf das Selbstverständnis einzelner Akteur:innen vor allem im 19. und 20. Jahrhundert fruchtbar machen, deren Wahrnehmung der „eigenen“ Sprache als marginalisiert und / oder bedroht oftmals eine wichtige Triebfeder ihres nationalen oder regionalen Engagements war.

Sprachaktivist:innen hatten dabei häufig mit einem zentralen Problem zu kämpfen: Für „kleine“ Sprachen fehlte in der Regel ein verbindlicher Standard, das heißt, es war noch kein Konsens erzielt worden über einen Dialekt oder eine Dialektgruppe, dessen / deren Merkmale als Richtschnur für den sprachlichen Ausbau und die Kodifizierung herangezogen werden konnten. Diese Unklarheiten auf morphologischer und syntaktischer Ebene spiegelten sich wiederum in der heterogenen Schreibung „kleiner“ Sprachen wider, die sich, je nach regionaler oder soziokultureller Affiliation, nicht selten an benachbarte „große“ Sprachen anlehnte. Das konnte in den parallelen Gebrauch mehrerer Alphabete münden, wie wir im Falle des Belarusischen und Ukrainischen sehen können, für die sich in den Quellen zeitweise sowohl „polnische“ als auch „russische“ Schreibungen beobachten lassen.

Damit im Zusammenhang steht die quellenkundliche, forschungspraktische Dimension, um die es im Workshop ebenfalls gehen soll. KI-gestützte Texterkennung im Bereich von Print (OCR) und Handschriften (HTR) spielt in der geisteswissenschaftlichen Forschung eine kaum zu überschätzende Rolle. Dabei wird jedoch gern übersehen, dass die vorhandenen Technologien am Beispiel „großer“ Sprachen, so etwa Englisch, Französisch, Spanisch oder Deutsch, entwickelt werden und folglich für „kleine“ Sprachen allenfalls mehr als unbefriedigende Ergebnisse liefern. Wie lassen sich hier Lösungen für Problem entwickeln, mit denen sich die Entwicklung von OCR/HTR für „kleine“ Sprachen konfrontiert sieht? Für etliche handschriftliche Dokumente ist ein häufiger Wechsel verschiedener Sprachen und Varietäten charakteristisch, stellenweise finden sich auch „gemischte“ Passagen, wie es etwa das bekannte Beispiel der belarusisch-russischen gemischten Rede (Trasjanka) nahelegt. Erschwerend kommt außerdem die Tatsache hinzu, dass die Geschichtswissenschaft etlichen „kleinen“ Sprachen bislang auch analog kaum Aufmerksamkeit hat zuteil werden lassen, so dass Romani oder das unter anderem für den Polnisch-Litauischen Unionsstaat belegte Armeno- Kipčak noch kaum in den Blick der Entwickler:innen gerieten. Doch selbst für bekanntere „kleine“ Sprachen steckt die Modellbildung für die HTR-Erfassung meist noch in den Kinderschuhen, wie etwa jiddische Handschriften zeigen.

Vor diesem Hintergrund zielt der Workshop, der sich gleichermaßen an Historiker:innen, Linguist:innen, Expert:innen der Digital Humanities sowie allgemein interessierte Kulturwissenschaftler:innen richtet, auf grundsätzliche Überlegungen dazu, wie mit (ehemals) nicht standardisierten „kleinen Sprachen“ in OCR und/ oder HTR umgegangen werden kann. Eine Annäherung an das Thema scheint dabei von zwei Seiten naheliegend: Zum einen aus der Perspektive der Sprachen selbst: Mit welchen „kleinen“ Sprachen arbeiten Historiker:innen und in welchen Quellen tauchen sie auf? Welche sprachbasierten Schwierigkeiten stellen sich bei der Quellenauswertung, die über ein ausschließliches „Verständnisproblem“ hinausreichen? Welche Rolle spielt der Kontext „großer“ Sprachen, etwa bei der Einordnung von Interferenzen? Inwiefern ist das Nebeneinander mehrerer „kleiner“ Sprachen in den Quellen von Bedeutung? Zum anderen aus der Perspektive der Digital Humanities: Im Rahmen des Workshops ist eine Hands on-Session geplant, in die die Teilnehmenden bei Interesse eigenes Quellenmaterial einbringen können.

Der regionale Fokus des Workshops liegt auf Ostmitteleuropa und damit auf derjenigen europäischen Region, die bis heute in ganz besonderem Maße von der Sorge „kleiner“ Sprecher:innengruppen vor der Dominanz „großer“ geprägt ist. Einzelne Beispiele aus anderen Regionen sind jedoch willkommen.

Bei Interesse senden Sie ein kurzes Abstract Ihres geplanten Vortrags (max. 100-150 Wörter) in deutscher oder englischer Sprache zusammen mit einem kurzen CV bis zum 20. Juni 2023 an: martina.niedhammer@collegium-carolinum.de Ausgewählte Vortragende erhalten bis spätestens 27. Juni 2023 Rückmeldung.

Arbeitssprachen sind Englisch und Deutsch. Reise- und Unterkunftskosten werden nach Absprache mit den Veranstalterinnen übernommen.

AI-based Text Recognition (OCR/HTR) for "Minor" Languages

The example of multilingual societies in India and the Americas led to the emergence of the concept of “minor language” in sociolinguistics in the 1960s. A set of criteria, modified several times, among them the number of speakers, the admission as official language as well as the use as a medium of instruction or typifications as vernacular, standard, classical language, pidgin or creole should facilitate systematic comparisons between speakers of different languages.

From a historiographical perspective, the concept of “minor” language is noteworthy with regard to the self-perception of individual actors, especially during the 19th and 20th centuries: The perception of “their” language as marginalized and/or threatened was often an important driving force for their national or regional commitment.

However, language activists often had to struggle with one main problem: Usually, for “minor” languages there was no binding standard, i.e., no consensus had yet been reached on a dialect or dialect group which could be used as a basis for linguistic development and codification. These ambiguities at morphological and syntactic levels were in turn reflected in the heterogeneous spelling of “minor” languages, which, depending on regional or sociocultural affiliation, often borrowed from neighboring “major” languages. This could result in the parallel use of several alphabets, as we can see in the case of Belarusian and Ukrainian, for which both “Polish” and “Russian” spellings can be observed during 19th (and early 20th) century.

This brings us to the source-related, research-practical dimension that will also be part of the workshop. AI-supported text recognition in the area of print (OCR) and manuscripts (HTR) plays an important role in humanities that can hardly be overestimated. However, it is often overlooked that the existing technologies are developed on the example of “major” languages, such as English, French, Spanish or German, and consequently provide more than unsatisfactory results for “minor” languages. How can solutions be developed for problems connected with OCR/HTR for “minor” languages? Frequent change of different languages and vernaculars is characteristic for a lot of handwritten documents; sometimes, even “mixed” texts can be found, as suggested by the well-known example of Belarusian-Russian mixed form of speech (Trasianka). What makes it more complicated is the fact that historians have so far paid little attention to several “minor” languages even when it comes to “analogue” sources so that Romani or the Armeno-Kipčak, which is documented for the Polish-Lithuanian Union State have hardly come to the attention of developers. But even for the better-known “minor” languages, HTR model training is still in its infancy, as Yiddish manuscripts show.

The workshop, which targets historians, linguists, digital humanists as well as scholars with a general interest in cultural history, offers a forum for discussion on how to deal with (formerly) non-standardized “minor” languages in OCR and/or HTR. Discussions seem possible from two angles: On the one hand, from the perspective of the languages themselves: Which “minor” languages do historians work with and in what type of sources do they appear? What language-based difficulties arise when evaluating sources which go beyond an ordinary “comprehension problem”? What role does the context of “major” languages play, for example in the classification of interferences? To what extent is the coexistence of several “minor” languages in one source significant? On the other hand, from the perspective of Digital Humanities: As part of the workshop, a hands-on session is planned in which participants can contribute their own source material if they are interested.

The regional focus of the workshop is on Central and Eastern Europe, i.e., on the European region that has been particularly marked by concerns of “small” groups of speakers against the dominance of “major” ones. However, examples from other regions are highly welcome.

If you are interested, please send a short abstract of your planned presentation (max. 100-150 words) in German or English together with a short CV by June 20, 2023, to: martina.niedhammer@collegium-carolinum.de Selected presenters will receive feedback by June 27, 2023.

Working languages are English and German. Travel and accommodation expenses will be covered after consultation with the organizers.

Kontakt

martina.niedhammer@collegium-carolinum.de